隨著互聯網的發展和網絡帶寬的改善,網絡上的信息逐漸從純文本過渡到文本和圖像相結合,甚至有些網站(例如Flickr和Pinterest)發布的信息幾乎都是圖像。傳統搜索引擎擅長查找文本信息,但對於圖像信息,許多搜索引擎顯得力不從心。鑒於用戶對此的強烈需求,許多互聯網公司開始在其搜索引擎中增加圖像搜索選項。
<html>
<head>
</head>
<body>
<title>貓</title>
<img src="/images/animal/cat.jpg" alt="可愛的小貓"/>
<div class="introduction-label" data-module="mtIn-貓身體靈活">貓身體靈活,樣子招人喜愛。</div>
</body>
</html>
現在讓我們回到您提到的以圖像搜索圖像的問題。初始的圖像搜索引擎,如Altavista和Lycos,確實是使用圖像的文件名、路徑、周圍的文本以及Alt標簽中的注釋來索引和搜索相關的圖像。從根本上來說,這種圖像搜索引擎實際上是基於文本搜索引擎的。
有時,圖像周圍的文本信息與圖像無關,這可能導致返回的一些圖像結果與查詢關鍵詞不一致。為了避免這種缺陷,一些搜索引擎采用人工方式對圖像進行標記和索引。例如,美國中北部教育技術聯盟開發的Amazing Picture Machine,它由專人從事圖像信息的收集、整理和標記,雖然人工標記確保了搜索引擎的查詢準確性,但它限制了圖像索引的規模,不可能實現很好的全面搜索。
有時,圖像的內容很難用幾個關鍵詞完整描述。在某些情況下,無論是使用圖像網頁的相關文本信息還是人工標記的文本說明,都很難實現高搜索準確性。在1992年,工程師Kato提出了以內容為基礎的圖像檢索(CBIR)概念,它使用圖像的顏色、形狀等信息作為特征來建立用於圖像檢索的索引,也就是我們通常說的“以圖查圖”。基於這一概念,IBM開發了第一個商用的基於CBIR的系統QBIC(Query By Image Content),用戶只需輸入一幅草圖或圖像就可以搜索相似的圖像。
在相同的時期,許多公司也將這一技術引入其搜索引擎中。哥倫比亞大學開發的WebSEEK系統不僅提供基於關鍵詞的圖像搜索和按圖像類別主題瀏覽,還可以使用圖像的顏色信息進行基於內容的圖像搜索。xathoo的ImgeSurfer還提供了使用案例圖的顏色、形狀、紋理特征以及它們的組合進行基於內容的圖像搜索功能。隨著視覺技術的進步和發展,越來越多的搜索引擎采用這種方式進行圖像搜索,並在此基礎上不斷發展。
那麽,以圖像搜索圖像的問題的準確度為什麽會如此令人不滿?這主要是因為無論是圖像的顏色、紋理、形狀等全局信息,還是後來的SIFT等局部圖像信息,都是人工設計的,這些信息並不能完全反映人類對圖像內容的理解。那麽圖像搜索的準確度如何提高呢?隨著人工智能,特別是深度學習理論和技術的發展,人們逐漸找到了解決方案。
神經網絡算法源自1943年的MCP類神經元模型,經過眾多科學家的努力,經歷了波瀾起伏的發展,逐步解決了發展中的問題,進入了新的快速發展階段。2006年,Hinton提出了訓練深層神經網絡的新思想,也就是現在所說的深度學習。2012年,Hinton和他的學生Alex等人參加ImageNet圖像識別比賽,利用深度學習理論構建的卷積神經網絡(CNN)AlexNet以84.7%的正確率奪冠,以相當大的優勢擊敗了使用人工設計特征算法獲得亞軍的選手。自此,深度學習方法在圖像特征分析方面超越了許多傳統方法。許多圖像搜索引擎也采用深度學習算法,顯著提高了圖像搜索的準確度。
參考資料:深智數位《CV+AI自己動手完成圖像搜尋引擎》